HuggingFace

FunAudioLLM

FunAudioLLM是由阿里巴巴通义实验室开发的开源语音大模型项目，包含SenseVoice和CosyVoice两个子模型。SenseVoice擅长多语言语音识别和情感辨识，支持超过50种语言；CosyVoice则专注于自然语音生成，支持多种语言、音色和情感控制。该项目适用于多语言翻译、情感语音对话等场景，其相关模型和代码已公开发布。

AI项目与工具 2025年06月12日 66 点赞 0 评论 710 浏览

AuraFlow

AuraFlow v0.1是一款由Fal团队开发的开源AI文生图模型，拥有6.8B参数量。该模型通过优化的MMDiT架构提升了计算效率和可扩展性。AuraFlow在生成精确图像方面表现出色，特别是在物体空间构成和色彩表现上具有优势。此外，它采用了最大更新参数化技术，增强了学习率迁移的稳定性。AuraFlow支持文本到图像的生成，适用于艺术创作、媒体内容生成、游戏开发及广告和营销等多种应用场景。

AI项目与工具 2025年06月12日 35 点赞 0 评论 941 浏览

AMD

AMD-135M是一款由AMD开发的小型语言模型，基于LLaMA2架构，具有文本生成、代码生成、自然语言理解和多平台兼容性等特点。该模型通过推测解码技术提高了推理速度，降低了内存占用，并在多项自然语言处理任务中表现出色。适用于聊天机器人、内容创作、编程辅助、语言翻译和文本摘要等多种应用场景。

AI项目与工具 2025年06月12日 100 点赞 0 评论 815 浏览

ChatMLX

ChatMLX是一款基于大型语言模型（LLM）的MacOS聊天应用，利用自然语言处理技术实现对文本、PDF及视频等内容的对话式交互。支持多语言环境，具备本地化运行特性，旨在为用户提供高效、安全的数据分析与对话体验，广泛适用于客户服务、个人助理、语言学习、数据分析及教育辅导等多个领域。

AI项目与工具 2025年06月12日 32 点赞 0 评论 757 浏览

VILA

VILA-U 是一款由 MIT 汉实验室开发的统一基础模型，整合了视频、图像和语言的理解与生成能力。它通过自回归框架简化模型结构，支持视觉理解、视觉生成、多模态学习和零样本学习等功能。VILA-U 在预训练阶段采用混合数据集，利用残差向量量化和深度变换器提升表示能力，适用于图像生成、内容创作辅助、自动化设计、教育和残障人士辅助等多种场景。

AI项目与工具 2025年06月12日 40 点赞 0 评论 1375 浏览

NVLM

NVLM是NVIDIA研发的多模态大型语言模型，涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构（NVLM-D、NVLM-X、NVLM-H），并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术，广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

AI项目与工具 2025年06月12日 57 点赞 0 评论 668 浏览

SPRIGHT

SPRIGHT是由多所高校和机构联合开发的视觉-语言数据集，旨在提升文本到图像生成模型的空间一致性。通过重新描述约600万张图像，强化空间关系表达，如“左/右”、“上/下”等，显著提高图像生成的准确性。该数据集支持复杂场景的图像生成，并经过多维度评估验证其可靠性。SPRIGHT为视觉-语言模型的研究和应用提供了重要资源，广泛应用于图像生成、VR/AR、教育及科研等领域。

AI项目与工具 2025年06月12日 77 点赞 0 评论 893 浏览

Hallo3

Hallo3是由复旦大学与百度联合开发的基于扩散变换器网络的肖像动画生成技术，能够生成多视角、动态且逼真的视频内容。其核心功能包括身份一致性保持、语音驱动动画、动态对象渲染和沉浸式背景生成。技术上采用预训练变换器模型，结合身份参考网络与音频条件机制，实现高质量视频生成。适用于游戏开发、影视制作、社交媒体及VR/AR等多个领域。

AI项目与工具 2025年06月12日 80 点赞 0 评论 601 浏览

Sky

Sky-T1是由加州大学伯克利分校NovaSky团队开发的开源推理AI模型，具备高性价比和强大推理能力。其训练成本仅450美元，数据来源经过优化处理，可在数学、编程和科学领域表现出色。模型支持用户从零复现，适用于教育、科研及软件开发等场景。在MATH500和LiveCodeBench测试中，Sky-T1表现优于部分早期OpenAI模型，展现出良好的实用价值。

AI项目与工具 2025年06月12日 12 点赞 0 评论 884 浏览

CLaMP 3

CLaMP 3是由清华大学朱文武教授团队开发的多模态、多语言音乐信息检索框架，支持文本、图像、音频和乐谱等多种模态之间的跨模态检索。其基于对比学习技术，将不同模态数据与多语言文本对齐至统一语义空间，适用于文本到音乐、图像到音乐检索、零样本分类及音乐推荐等任务。支持27种语言，可扩展至100种，广泛应用于音乐创作、教育、分析及多媒体内容制作。

AI项目与工具 2025年06月12日 86 点赞 0 评论 566 浏览

HuggingFace

首页

HuggingFace

列表

默认

浏览次数

发布日期